Trong khi truy xuất mật độ đã cách mạng hóa việc tìm kiếm bằng cách nắm bắt ý định ngữ nghĩa, nhưng các môi trường sản xuất lại phơi bày một sự thật khắc nghiệt: các nhúng vector thường 'làm mịn' những chi tiết quan trọng như mã sản phẩm, các từ viết tắt hiếm và thuật ngữ kỹ thuật. Thế giới thực không thuần túy mang tính ngữ nghĩa; nó là một hỗn hợp lộn xộn giữa ý nghĩa trừu tượng và các định danh cứng nhắc.
Thực tế Sản xuất
- Ưu thế về Từ vựng: Truy xuất từ vựng (như BM25) vẫn là tiêu chuẩn vàng cho các từ và trùng lặp cụm từ chính xác. Nó không cố gắng đoán "bạn muốn nói gì"; mà tìm ra "chính xác những gì bạn đã nói."
- Khoảng cách Ngữ nghĩa: Truy xuất mật độ rất mạnh trong việc khớp ý nghĩa (ví dụ: "vấn đề với thanh toán" khớp với "lỗi giao dịch"), nhưng vốn dĩ nó gặp khó khăn với các tín hiệu thưa thớt có độ chính xác cao tín hiệu thưa thớt như số SKU hay mã linh kiện.
- Sự cần thiết của Giải pháp Kết hợp: Tìm kiếm kết hợp tồn tại vì thế giới không thuần túy mang tính ngữ nghĩa hay thuần túy từ vựng. Hành vi người dùng bị phân tách — đôi khi họ tìm kiếm một khái niệm, đôi khi họ tìm kiếm một "cây kim trong đống rơm" cụ thể nào đó.
Kiến thức Kỹ thuật
Truy xuất mật độ mạnh ở việc khớp ý nghĩa, trong khi truy xuất từ vựng mạnh ở các từ chính xác, định danh và trùng lặp cụm từ. Các câu hỏi thực tế của người dùng thường cần cả hai. Tìm kiếm kết hợp tồn tại vì thế giới không thuần túy mang tính ngữ nghĩa hay thuần túy từ vựng.